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摘 要 :; 针对 函数 型 数据 分 类 工法 中 全 局 统计 特征 表达 能 力 有 限 ， 且 显著 点 特征 易 受 唆 声 干扰 等 问题 ， 提 出 一 种 基 
于 统计 深度 方法 的 函数 曲线 特征 分 段 提取 算法 。 首 先 ， 利 用 数据 平滑 技术 对 离散 观测 的 数据 进行 平滑 化 处 理 ， 同 时 
引入 函数 型 数据 的 一 阶 和 二 阶 导 函数 ; 然后 ， 分 段 计算 范 数 本 身 及 其 低 阶 导 晃 数 的 马 氏 积分 深度 值 ， 在 此 基础 上 构 
造 函 数 曲线 特征 向 量 ; 最 后 ,给 出 三 种 选择 调节 参数 的 搜索 方案 ,并 进行 分 类 研究 。 在 UCR 数据 集 上 的 实验 表明 ， 
与 当前 其 他 曲线 特征 提取 算法 相 比 ， 所 提 算 法 能 有 效 提取 函数 曲线 特征 ， 提 高 分 类 的 准确 性 。 
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Segmental feature extraction for functional data 


Jin Haibo!, Ma Haiqiang” 
(1. Dept. of Mathematic, Taiyuan University of Science && Technology, Taiyuan 030024, China; 2. School of Statistics, 
Jiangxi University of Finance & Economics, Nanchang 330013, China) 


Abstract: Since the representation ability of statistical global feature for functional data classification is limited, and the 
salient point feature is susceptible to noise disturbance, proposed a segmental feature extraction algorithm based on 
statistical depth notion. Firstly, the smoothing technique is used to pre-smooth the discrete observed data, and the first and 
second derivatives of the function curves are defined accordingly. Then, depths of Mahalanobis integral of the functions and 
its low-order derivatives in segments are calculated, and thus feature vectors of function curves are constructed based on the 
depth measures. Finally, the optimal number of segments for classification is selected by data-driven, and the binary 
classification of function data is studied. Compared with the other curve feature extraction algorithms, experiments on UCR 
datasets Show that the proposed algorithm performs well in extracting the feature of curve, and improves the classification 
accuracy effectively. 
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0 引言 避免 地 给 实际 数据 分 析 带 来 诸多 挑战 。 如 果 直 接 在 函数 型 数 
和 据 上 进行 数据 挖掘 ， 相 关 数 值 计算 工作 量 非 常 大 中， 因此 ， 

近 三 十 年 来 ， 随 着 科学 技术 的 迅猛 发 展 ， 人 们 获取 和 存 ”对 函数 型 数据 进行 降 维 处 理 或 特征 提取 是 必要 的 B-5, 获得 低 
储 数据 的 能 力 得 到 了 极 大 提高 。 在 现实 生活 的 很 多 领域 中 ， 维特 征 后 ， 后 续 便 可 采用 成 熟 的 数据 挖掘 技术 进行 分 析 ， 从 
人 们 越 来 越 多 需要 处 理 具有 实时 性 、 空 间 型 等 函数 特性 的 数 。” ”而 提高 计算 效率 。 特 别 值得 指出 的 一 点 是 ， 根 据 特定 的 分 析 
据 , 如 经 济 活动 中 的 金融 数据 、 工 业 设 备 产 生 的 传感器 数据 、 目的 和 应 用 领域 ， 应 该 对 函数 型 数据 采取 不 同 的 特征 提取 方 
环境 科学 中 的 气象 数据 等 。 这 些 数 据 往往 是 带 噪声 的 离散 观 ”法 。 例 如 针对 分 类 问题 ， 为 了 提升 分 类 精度 ， 应 该 提取 与 类 
测 数 据 ， 在 实际 数据 的 分 析 中 需要 重新 有 效 表 达 这 些 序列 数 。” 别 相关 的 数据 特征 久生 。 
据 ， 再 根据 研究 或 应 用 目的 ， 选 用 合适 的 数据 挖掘 技术 进行 国内 外 很 多 专家 学 者 对 函数 型 数据 的 分 类 问题 进行 了 大 
分 析 ， 如 分 类 或 聚 类 分 析 。 其 中 ， 若 将 序列 数据 看 成 函数 型 。 量 研究 。 考 虑 到 特征 提取 和 分 类 算法 之 间 的 紧密 联系 ， 特 别 
数据 趾 ， 便 可 以 充分 利用 函数 的 优良 性 质 和 特点 ， 极 大 地 提 是 特征 提取 的 优 劣 需要 用 分 类 结果 来 评价 ， 因 此 ， 在 介绍 前 
升 数据 挖掘 的 深度 和 精度 人 工作 时 ， 将 对 文献 中 分 类 算法 和 采用 的 特征 提取 技术 一 并 
是 一 类 无 穷 维 数据 ， 其 样本 单元 是 无 介绍 。Alonso 等 人 [5 根据 函数 曲线 和 类 均值 曲线 间距 离 重 新 
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函数 型 数据 本 质 上 
穷 维 函数 空间 中 的 随机 曲线 ， 即 为 随机 过 程 的 一 次 实现 。 函 。 ”构造 判别 变量 ， 进 而 采用 线性 判别 分 析 LDA 或 最 近邻 KNN 
数 型 数据 分 析 方法 主要 采用 泛 函 分 析 中 的 相关 方法 对 函数 型 ” 等 多 元 分 类 技术 进行 分 类 ; 除 函 数 本 身 外 ， 算 法 还 利用 了 多 
数据 进行 建 模 ， 它 非常 侧重 数据 的 函数 特性 ， 即 通常 将 一 定 ” 阶 导 函 数 去 构造 判别 变量 。 实 验 表明 ， 借 助 一 阶 和 二 阶 导 函 
时 间 范 围 内 的 观测 数据 看 成 一 个 整体 ， 而 不 对 数据 内 部 的 相 。” 数 构造 的 判别 变量 可 以 显著 降低 错 分 率 。Torrecilla 等 人 中 提 


依 性 质 设置 任何 假定 。 针 对 不 同 观测 个 体 ， 函 数 型 数据 分 析 ”出 一 种 极 大 值 搜索 的 函数 特征 选择 迭代 算法 (RMH)， 他 们 
方法 允许 使 用 不 同 抽样 技术 在 不 同时 间 点 上 获得 稀 疏 或 稠密 ”首先 通过 计算 随机 函数 X(D,te[0,7] 和 类 变量 Y 的 距离 相关 系 
的 观测 值 。 数 ， 得 到 最 大 系数 值 对 应 的 显著 点 ; 然后 在 子 区 间 [0,w) 和 

值得 注意 的 是 ， 函 数 型 数据 内 在 的 无 穷 维特 性 将 会 不 可 (w,T] 上 递归 搜索 去 掉 Xdo) 影响 后 的 显著 点 ;最 后 利用 XO) 


收 稿 日 期 : 2018-11-28; 修 回 日 期 : 2019-01-22 
作者 简介 : 金海 波 〈1980-)， 男 ， 山 西 闻 喜人 人， 讲师 ， 硕 士 ， 主 要 研究 方向 为 数据 挖 据 (jhb800@qq.com); 马 海 强 《1982-)， 男 ， 山 西晋 城 人 ， 讲 
师 ， 硕 导 ， 博 士 ， 主 要 研究 方向 为 函数 型 数据 分 析 、 分 位 数 回归 等 . 


201905.00032V1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 金海 波 ， 等 : 分 段 提 取 函 数 型 数据 特征 的 算法 研究 第 37 卷 第 6 期 


降 维 得 到 的 点 集 KG)j 进行 最 近邻 分 类 。Dai 等 人 图 提出 一 ” 提 算 法 不 仅 利 用 了 函数 对 象 本 身 的 特点 ， 而 且 还 利用 多 阶 导 
种 基于 似 然 比 的 贝 叶 斯 分 类 算法 ， 并 从 理论 上 证 明了 其 “ 完 ”函数 的 分 段 特征 ， 因 此 ， 所 提 算 法 可 以 全 面 刻 画 函 数 型 数据 
美 分 类 ”的 性 质 。 他 们 首先 对 函数 型 数据 进行 投影 变换 ， 得 ”的 变化 特征 。UCR 多 个 数据 集 的 实验 验证 了 所 提 算 法 在 函数 
到 多 个 独立 的 主 成 分 得 分 ;然后 分 别 对 这 些 主 成 分 得 分 的 概 ”型 数据 的 分 类 应 用 上 具有 很 好 的 实际 效果 。 
率 密度 函数 进行 非 参 估计 ; 最 后 利用 似 然 比 公式 完成 贝 叶 斯 ”1.1 问题 定义 与 算法 流程 

分 类 。Mosler 等 人 中 通过 两 步 变 换 方法 ， 即 首先 把 函数 和 一 为 描述 方便 ， 考 虑 函数 型 数据 二 分 类 问题 。 设 
阶 导 函数 的 分 段 积 分 值 作为 特征 向 量 ， 再 应 用 多 元 深度 函数 X(D,te[0,T7] 是 来 自 概 率 空间 (Q,F,P) 的 时 间 连 续 随 机 过 程 ， 
把 特征 向 量 映射 到 二 维 值 空间 DD-plot; 最 后 运用 最 近邻 分 “函数 对 象 &O 是 此 过 程 的 一 次 实现 (或 轨迹 )， 
类 和 DD a 过 程 进行 分 类 。Li 等 人 [9 首先 使 用 F 统计 量 求 得 {XiD,Yj,te[l0,7], 是 一 组 由 函数 和 类 别 标签 组 成 的 数据 对 集 
曲线 显著 点 及 其 相 邻 子 区 间 , 然后 利用 LDA 提取 曲线 特征 ， 合 ， 其 中 站 st0,1 是 分 类 变量 ， 这 些 函 数 〈 轨 迹 ) 来 自 两 个 不 
最 后 运用 支持 向 量 机 进行 分 类 。 此 方法 适用 于 空间 异 质 或 不 同 的 总 体 , 类 别 了 =0 代 表 郧 ， 类 别 革 =1 代 表 呈 。 分 类 问题 是 
规则 抽样 的 曲线 数据 。Fraiman 等 人 [利用 一 组 函数 来 定义 ”对 未 知 类 别 的 函数 对 象 X“0 推断 所 属 的 总 体 马 或 8。 本 质 
线 特征 ， 并 分 别 应 用 在 分 类 、 回 归 和 主 成 分 分 析 等 方面 。 上 ， 特 征 提取 就 是 要 找到 一 种 形 如 @:F 一 R 的 映射 使 得 对 
Rossi 等 人 02 则 详细 介绍 了 支持 向 量 机 在 函数 型 数据 分 类 中 ”无穷 维 函数 型 数据 的 分 类 问题 可 以 转换 为 R? 中 的 有 限 维 分 
的 作用 。 类 问题 ， 从 而 避免 无 限 维 函 数 空间 下 分 类 不 可 行 问题 。 
国内 学 者 马 忱 等 人 [9 提出 了 面向 函数 型 数据 的 结合 3 图 1 描述 了 SFE 算法 处 理 数 据 的 主要 流程 。 图 1(a) 为 含 
成 分 分 析 法 和 最 小 凸 包 法 的 快速 特征 选择 (FFS) 方 法 ,他 们 月 噪声 的 离散 序列 数据 ,经 数据 平滑 后 得 到 连续 的 函数 型 数据 ， 
提 方 法 不 仅 可 以 快速 获得 稳定 的 特征 子 集 ， 而 且 具 有 很 好 的 “如 (b) 所 示 ;， 然后 求 取 其 低 阶 导 函 数 ， 如 (c) 所 示 ， 从 上 到 下 依 
实际 效果 。 苏 本 跃 等 人 09 则 利用 函数 型 数据 分 析 方 法 ,将 可 ”次 为 原 函 数 、 一 阶 和 二 阶 导 函数 ， 再 对 这 三 类 函数 分 段 ， 如 
穿戴 式 运 动 捕捉 系统 采集 的 人 体 周期 行为 数据 进行 函数 化 处 ””(d) 所 示 ; 最 后 计算 每 个 分 段 的 统计 深度 值 ， 并 组 合 得 到 深度 
理 ， 准 确 地 定义 了 数据 的 连续 性 与 周期 性 ， 最 后 ,根据 不 同 。” 值 向 量 ， 如 (e) 所 示 ， 即 得 到 函数 的 特征 向 
行为 一 个 周期 内 的 曲线 特征 差异 ， 利 用 支持 L 对 动态 行 ”1.2 数据 平滑 

为 进行 分 类 识别 。 如 果 待 研究 的 观测 样本 是 含 噪声 的 数据 序列 ， 
1 ”分 段 特 征 提取 ( SFE ) 算 法 Y(),ie{l…,m} ， 即 满足 模型 7Y()=X()+elD ,其 中 残 差 20) 独立 


于 X()，, 则 可 用 线性 平滑 方法 得 到 原始 X(i)， 即 
考虑 到 函数 对 象 的 全 局 统计 特征 表达 能 力 有 限 ， 且 显著 
点 等 局 部 特征 易 受 噪声 干扰 ， 本 文 提 出 了 基于 统计 深度 函数 
的 分 段 特 征 提取 算法 (SFE)。 鉴 于 函数 型 数据 平滑 特性 ， 所 其 中 :5 是 点 4 相对 5 的 权重 ; 5=(ss) 可 看 做 平滑 矩阵 。 
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XGOD)=> ,Y(t), (1) 


“深度 测量 depth 


a) 离 散 序 列 b) 函 数 c) 多 阶 导 函 数 d) 函 数 分 段 e) 深 度 值 向 量 
a) Discrete Sequences b) Function c) Multilevel derivatives  d) Function segmentation e) Depth value vector 


图 1 函数 分 段 特 征 提取 〈SFE) 算法 流程 


Fig.1 Procedure of segmental feature extraction for functional data 


目前 ， 主 要 有 两 种 线性 平滑 方法 用 来 恢复 原始 XC) 。 可 通过 交叉 验证 方法 获得 。 
种 方法 是 利用 一 组 基 函 数 {Bihew 的 线性 组 合 来 近似 逼近 X(C) ， 为 了 比较 两 种 平滑 方法 的 差异 , 图 2 给 出 了 B 样 条 曲线 
这 里 选择 足够 多 的 总 个 基 函 数 ， 即 平滑 和 非 参 核 平 滑 的 示意 图 。 图 中 曲线 数据 来 自 于 GunPoint 


数据 集中 第 34 条 曲线 片段 ， 其 中 共 包 含 21 个 数据 点 。B 样 
条 基 函 数 个 数 和 核 函 数 窗 宽 参 数 是 从 一 组 可 选 值 中 通过 交叉 


XO= DD DD oD) O) 


在 本 文 所 提 算 法 中 , 使 用 一 组 B 样 条 基 函 数 来 和 逼 近 原 函 ”验证 计算 得 到 。 就 此 例 而 言 ， 从 图 2 可 以 看 出 ， 第 一 种 平滑 
数 。 方法 效果 比 第 二 种 方法 好 。 
另 一 种 方法 则 是 采用 非 参 数 核 平滑 技术 外 ,使 用 1.3 统计 深度 函数 
Nadaraya-Watson 估计 平滑 矩阵 3=(sw) : 统计 深度 函数 和 相关 分 位 数 函 数 可 以 对 多 元 数据 进行 非 
= RET) /Fr Kee) @) 参数 描述 和 结构 分 析 ， 根 据 不 同 的 中 心性 概念 和 定义 ， 存 在 
下 h ~ 多 种 类 型 的 深度 函数 。 对 函数 型 数据 ,也 可 以 定义 深度 函数 ， 
其 中 :Ko 为 核 函 数 ,一般 选 用 高 斯 核 函 数 。 最 佳 窗 宽 参数 h 用 来 刻画 某 条 曲线 (过 程 ) 相 对 曲线 样本 的 向 心性 度量 05191。 
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考虑 曲线 X;, 来自 样 本 P={XO 和 ,rs[07] ,本 文 算法 使 用 如 下 
定义 的 马 氏 ( Mahalanobis ) 积 分 深度 函数 09; 


FMD(X,, P) = da-| 1/2-F,,(X,()))) ar 


F(X(D)) = > 


其 中 : 


(X(t) < X()) 


式 (4) 中 被 积 函 数 表 示 


示 示 性 函数 。 


式 (4) 本 质 上 


马 氏 积分 深度 本 
此 外 ， 基 
计量 


条 


来 刻画 出 


可 以 看 成 是 深度 函数 在 函数 型 数据 的 
E 广 。 类 似 于 一 维 随机 变量 中 的 次 序 统计 量 ， 


函数 主要 线 在 整个 数据 中 所 处 的 位 置 


(4) 


(5) 


维 的 深度 函数 ， 式 (5) 中 1) 表 
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f(D?Xio ,DX),..., f(D Xv ,DX )， 


f(D?Xio,D?X0") 


调节 参数 的 选择 

SFE 算法 中 三 个 最 对 
这 些 参数 值 的 选择 将 直接 影响 后 
这 三 个 参数 仍 缺乏 理 


1.5 


种 


马 氏 积分 深度 


通常 选取 不 大 于 10 


论 依据 中。 便 
的 分 段 数 就 可 以 取得 满意 结果 ,但 穷尽 搜 
索 三 个 参数 的 最 佳 组 合 仍然 花费 很 长 时 间 ， 为 此 需要 设计 启 


| 


叫 Co 


发 式 搜索 策略 来 提高 效率 。 这 里 


于 式 (4)， 本 文 还 可 


1.4 


和 EX UX® 函数 演 ; 连续 


表示 也 
函数 曲线 的 位 
中 :下 一 Re ， 即 


眠 吕 


数 不 仅 计 算 简单 ,1 
以 用 来 构造 诸多 函 
量 ， 如 函数 型 数据 的 秩 和 截断 均值 等 ， 从 而 可 以 克 


I 且 . 


中 异常 点 的 影响 ， 得 到 更 精确 可 信 的 分 析 结 果 。 


9 图 例 
一 B- 样 条 曲线 平滑 ; 
31 个 高 斯 核 曲线 平滑 ,/ 


X(t) 


图 2 数据 平滑 示例 


Fig.2 Example of data Smoothing 


分 段 特征 提取 


光滑 ， 


XP[ FD X,, XV), f(DX,, XY) 


,f(D'X;, D'X®) 


,f(D'X,, D'X™) 


,f(D2X;, DX®), f(D2X,, DX®)] 


™ 


样本 prX% 的 统计 深度 值 ， 这 


Pp: f(D?X;,D?Xw) 是 实 值 函 数 映 射 ， 表示 


度 函 数 。 注意 到 上 其 中 f 变换 针对 DrX; 定义 域 [0,7] 进行 ， 


得 到 函数 D"X; 类 别 相关 的 全 局 统计 特征 。》 


局 部 特征 表达 能 力 ， 对 D?Xi 分 


这 晤 


讨论 PD?X; 即 X 的 分 段 变换 ，ZDX 和 D?X; 可 车 


服 数据 


函数 D"X 相对 
有 应 用 式 (4) 和 (5) 定 义 的 积分 深 


很 好 的 稳健 性 质 。 
数 型 数据 的 统 


段 设 X® 和 X2 是 来 自 总 体 只 ,sf0.1 的 函数 样本 ， 任 取 
DoX, 、DIX 和 D2X; 分 别 
数 本 身 、 一 阶 和 二 阶 导 函 数 ， 这 三 类 函数 分 别 
、 和 斜率 变化 和 思 凸 性 质 。 若 考虑 如 下 变换 


省 述 了 


(6) 


可 
为 了 提高 D"X 的 

段 应 用 f 变换 。 为 描述 方便 ， 
里 分 析 。 


考虑 将 定义 域 [0,7] 分 成 N, 个 等 距 子 区 间 [0,7/N) 


[T/N, ,27/N )，…， 
每 个 子 区 间 上 的 函数 分 段 用 1 每 
个 Xj 实施 f 变换 ; 同 理 , 对 DX 和 D?X; 划分 成 N, 和 Ne 个 分 


[(N, -DT/N, 


,T) 


Xij,j=1,2,.….N, 表示 ， 再 对 每 


段 ， 满 足 N+N,+N.>1。 综 上 ， 求 得 函数 空间 到 特征 空间 的 


变换 为 D:F —> RNtN+N) ， 


即 


Xi PLf(D' Xo , Xo") 


f(D Xio ,XH ),, 


f(D'Xio ，DIX0 


,fCDOXin XN), 
f DXin ,XN ) ， 


fDiXiw ,D'XW ), 


f(D'Xio ,DIX),..., f(DIXiy, ,DIXN )， 


数 为 nw 、n, 和 7 ， 这 种 方法 实现 
方案 是 分 步 选 择 法 ， 
确定 NN, 的 最 佳 分 段 数 是 m， 然 


处 理 ， 第 二 种 
搜索 


是 独立 选择 法 ， 即 单独 搜索 三 个 参数 并 确定 各 


a f DXin ,DXH)] 


(7) 


要 的 参数 是 分 段 数 六 、N, 和 Ne， 


续 分 类 算法 性 能 ， 正 确 选 择 
对 不 同 数据 集 的 实验 表明 ， 


考虑 两 种 简化 方案 ， 第 一 种 
的 最 佳 分 段 


搜索 任务 可 以 并 行 化 
首先 假设 (N,,N.) 为 (0,0) ， 


简单 ， 


后 固定 (Wi,N.) 值 为 


(nm,0) ,在 此 条 件 下 搜索 N, 最 佳 分 段 数 为 n, ,最 后 固定 (N,N,) 
值 为 (m,n,) ,搜索 得 到 N, 最 佳 分 段 数 为 n. ,最 终 取 得 参数 N,、 
NM 和 WN 的 最 佳 组 合 为 04,7;n.) 。 易 见 ， 独 立 选择 法 和 分 步 


选择 法 搜索 效率 远 高 于 穷尽 搜索 


1.6 算法 伪 代 码 


综 上 讨论 ， 基 于 


方法 


息 的 


深度 信 


伪 代 码 如 算法 1 所 示 。 为 简单 起 
这 里 对 算法 1 做 必要 解释 , X 和 YY 分 别 表示 函数 样本 集 和 相 


应 的 类 别 ，Ni, Ns 和 


的 分 段 数 目 。 


1~7 行 计算 


行 对 


特 征 值 》 


函数 特征 分 段 提取 算法 SFE 
见 ， 只 列 出 核心 部 分 代码 。 


Ne 分 别 表 示 函 数 及 其 一 阶 和 二 阶 导 函 数 
代码 第 
3 行 把 样本 集 按 类 别 分 为 两 类 子 集 ， 第 5、 
分 别 计算 深度 值 。 第 8~14 
其 中 第 10 行 对 函 


函数 分 段 的 统计 深度 值 ， 第 
6 行 根据 式 (4) 
函数 进行 分 段 并 计算 其 分 段 


数 进行 分 段 ， 第 11~13 行 循环 调 


用 depth 函数 计算 各 分 段 的 统计 深度 值 。 第 15~23 行 是 算法 


主 过 程 ， 第 16 行 应 | 


行 分 别 获 得 函数 一 阶 和 二 阶 导 函 
E 值 ,第 22 行 把 函数 及 导 函 数 的 特征 值 组 


j 式 (2) 平滑 原始 观测 数据 ， 第 17、18 


数 ， 第 19~21 行 计算 函数 及 


其 导 函 数 的 分 段 特 和 
合成 特征 矩阵 。 
算法 1 分 段 特 征 提取 算法 
输入 : X，Y，NI，N。，Ne 。 
输出 : features (特征 矩阵 ) 。 
1 function depth(Xi，Y) 
2 d 一 matrix(size(Xi)，2) 
3 {Xi(1), Xi(2)} 一 groupBy(Xi ，Y) 
4 for(k in 1:size(Xi)) { 
5 d(k,1) 一 FMD(Xi[k]，Xi(1)) 
6 d(k,2) 一 FMD(Xi[k], Xi(2)) } 
7 return d 
8 function seg_features(X, Y, n) 
9 fx 一 [] 
16 {X1 ，… ， Xn} — segment(X, n) 
11 for(i in 1:n) { 
12 d — depth(Xi, Y) 
13 fx 一 [fx d] } 
14 return fx 
15 procedure SFE(X, Y, Ni, Ns, Ne) 
16 DeX <— smoothing(X, Y) 
17 DIX 一 deriv(DeX, 1) 
18 D2X 一 deriv(DeX, 2) 
19 f_DeX 一 seg features(DeX, Y, Ni1) 
26 f_D1X 一 seg features(DIX，Y，Ns) 
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21 f_D2X 一 seg_features(DX, Y, Nc) 训练 集 拟 合 模型 和 参数 寻 优 ， 采 用 K 折 交 叉 验 证 模型 ， 依 据 
22 features — [f DX f_ Dix f_D2X] 训练 集 规模 可 取 5 或 10。 模型 建立 后 , 使 用 独立 测试 集 评 
23 return features 估 模 型 性 能 ， 算 法 选用 分 类 精度 作为 评价 指标 。 


2 ”实验 及 结果 分 析 
2.1 数据 集 介绍 


为 了 比较 不 同 算法 下 的 分 类 性 能 ， 本 文选 


准 序列 数据 集中 的 六 个 数据 集 进 行 实验 。 这些 数 据 曲 线 特 


立 的 训练 集 和 测试 集 ， 详 细 描述 如 表 1 所 示 


征 复杂 ， 对 其 分 类 具有 极 大 的 挑战 性 。 每 个 数据 用 


nt 


WormsTwoClass 数据 集中 的 两 类 曲线 片段 样 例 。 


表 1 实验 数据 集 


Table 1 Experimental datasets 


区 了 UCR 标 


均 包 含 独 
。 图 3 画 出 了 


数据 集 训练 数 测试 数 序列 长 度 
GunPoint 50 150 150 
BeetleFly 20 20 512 

Ham 109 105 431 
Herring 64 64 512 
Earthquakes 139 322 512 
WormsTwoClass 77 181 900 


2.2 实验 设计 


本 文 提 出 一 种 函数 型 数据 特征 的 分 段 提 取 算 法 SFE， 得 
到 低 维 数据 特征 后 ， 再 采用 成 熟 算法 进行 分 类 。 为 了 验证 


本 
文 算法 的 通用 性 , 实验 采用 SFE 算法 和 分 类 算法 的 多 种 组 合 
方案 。LDA 表示 线性 判别 分 析 方 法 ，SVM 表示 采用 径 向 基 


核 函 数 支 持 向 量 机 方法 ， 其 中 参数 c = 8，gamma = 0.5。 


表示 随机 森林 分 类 方法 ， 其 分 类 器 参数 都 采用 默认 值 。 为 便 


何 优 化 。 


于 比较 ， 各 分 类 算法 的 参数 值 在 不 同 数据 集 上 运行 均 未 做 任 


算法 代码 使 用 R 语言 实现 ， 第 三 方 工具 包 主要 包括 函数 


型 数据 分 析 包 fda.usc 和 分 类 回归 训练 包 caret， 其 中 后 者 用 
来 构建 分 类 模型 ， 包 括 模 型 训练 和 分 类 预测 两 个 过 程 。 使 用 


2.3 结果 及 分 析 

表 2 列 出 了 不 同 分 类 方法 下 数据 集 上 的 分 类 精度 。 前 两 
列 是 两 种 简单 非 参 分 类 模型 的 分 类 结果 073， 它 们 作为 评价 本 
文 算法 性 能 的 基准 数据 , 其 中 1NN 表示 以 欧 氏 距离 为 相似 性 
度量 的 最 近邻 分 类 ，1NN-DTW 表示 采用 动态 时 间 弯 曲 距离 
的 最 近邻 分 类 。 若 曲线 样本 非 时 间 对 齐 ，1NN-DTW 分 类 比 
单纯 用 1NN 分 类 结果 好 ， 如 Earthquakes 和 WormsTwoClass 
数据 集 。 表 中 后 八 列 给 出 四 种 分 类 算法 在 曲线 分 段 和 不 分 段 
条 件 下 的 分 类 精度 , 其 中 不 分 段 表示 SFE 算法 参数 N,、N, 和 
N, 取 值 为 1， 分 段 条 件 下 分 类 精度 很 大 程度 上 依赖 于 分 段 数 
目 ， 表 中 给 出 最 佳 分 段 数 4,n,,n) 下 的 分 类 结果 。 需 要 指出 
的 是 ， 根 据 分 段 数 参数 搜索 策略 的 不 同 ， 得 到 的 分 段 数 目 并 
不 唯一 ， 可 能 会 造成 分 类 结果 差异 。 
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0 100 200 300 400 
t 
图 3 原始 数据 曲线 样 例 


Fig.3 Samples of original data curve 


表 2 不 同 分 类 方法 下 的 分 类 精度 比较 


Table 2 Classification accuracy comparison of different classification methods 


SFE + LDA SFE + SVM SFE + RF 
数据 集 INN INN-DTW 
未 分 段 分 段 未 分 段 分 段 未 分 段 分 段 

GunPoint 0.913 0.907 0.880 0.953 (10,6,5) 0.893 0.947 (6,6,1) 0.920 0.953 (10,5,1) 
Beetlefly 0.750 0.700 0.850 0.900 (5,4,6) 0.700 0.850 (5,1,3) 0.700 0.900 (10,7,2) 
Ham 0.600 0.467 0.781 0.790 (7,2,1) 0.781 0.705 (7,5,1) 0.720 0.752 (7,5,10) 
Herring 0.516 0.531 0.516 0.609 (10,5,0) 0.500 0.594 (3,2,4) 0.469 0.609 (3,4,1) 
Earthquakes 0.674 0.742 0.798 0.814 (1,0,3) 0.786 0.817 (2,10,2) 0.801 0.811 (8,6,3) 
WormsTwoClass 0.586 0.663 0.575 0.600 (7,4,3) 0.702 0.729 (7,3,6) 0.663 0.702 (7,3,6) 


对 表 2 中 结果 进行 分 析 ， 得 到 如 下 结论 : 


a) 在 曲线 未 分 段 情况 下 ,采用 SFE 算法 得 到 的 分 类 结 


在 多 数 情 况 下 和 基准 结果 相差 不 大 ， 说 明 统 计 深 度 值 作为 


线 特征 是 非常 有 效 的 。 从 Ham 和 Earthquakes 


数据 集 上 结 


来 看 , 相 较 INN 基准 结果 , 三 种 分 类 算法 的 分 类 精度 平均 提 


升 16.1% 和 12.1%。 


b) 在 曲线 分 段 情况 下 ， 从 曲线 得 到 的 特征 维 数 更 多 ， 所 
有 分 类 算法 下 的 分 类 精度 高 于 未 分 段 情况 下 的 分 类 精度 。 这 
点 在 GunPoint、BeetleFly 和 Herring 数据 集 上 表现 明显 ， 三 


种 分 类 算法 下 的 分 类 精度 相 比 未 分 段 情况 下 平均 提 
13.3% 和 10.9%。 另外 在 GunPoint 和 WormsTwoClasss 数据 外 


上 最 佳 分 类 精度 分 别 是 95.3% 和 72.9%， 相 比 


同 数据 集 上 最 好 分 类 结果 分 别提 升 23.3% 和 14.9%。 


c) 为 公平 比较 多 个 分 类 算法 在 不 同 数 据 自 


较 文献 [8] 中 相 


财 5.33%、 


日 突出 SFE 算法 的 作用 ， 实 验 中 未 优化 任何 分 类 算法 参数 ， 
未 对 特征 过 多 预 处 理 ， 可 能 出 现 非 预期 分 类 结果 。 比 如 Ham 
数据 集 上 的 SVM 分 类 结果 ， 由 于 过 拟 合 问题 ， 使 得 测试 集 
分 类 精度 不 如 预期 。 在 实际 数据 分 析 中 ， 可 以 采取 特征 预 处 
理 技术 和 分 类 算法 参数 优化 工作 便 可 避免 上 述 问题 。 
2.4 与 其 他 特征 提取 方法 的 比较 
在 对 函数 型 数据 进行 特征 提取 时 ， 常 用 降 维 方法 有 主 成 
分 分 析 法 (PCA) 器 和 偏 最 小 二 乘法 (PLS)〉[* 习 。 在 文献 [6] 
中 作者 提出 了 DFM (DISTANCE TO THE FUNCTIONAL 
Mean) 方法 ， 其 主要 思想 是 根据 如 下 定义 提取 函数 及 其 导 函 
数 的 特征 ， 构 造 判 别 变量 : 


< gp 4 访 
a=([ [CGO-XOO)| 4] 一 (L | XW-XD®)| | (8) 


长 上 的 表现 ， 


其 中 : 4 表示 提取 到 的 实 值 特 征 ; X(C), te[0,7] 表示 函数 曲 


线 样 例 ，XGC)w 和 X(C)2 表示 正 类 和 反 类 的 类 均值 函数 曲线 ; 


了 一 般 取 1 或 2。 
为 了 比较 多 种 特征 提取 方法 的 性 能 ， 本 文选 用 文中 介绍 
的 六 个 数据 集 进行 实验 ， 后 续 分 类 算法 均 采 用 LDA 方法 ， 
算法 代码 使 用 及 语言 实现 。 需 要 指出 的 是 , PCA 方法 根据 方 
差 累积 贡献 率 来 确定 主 成 分 个 数 ，PLS 方法 通过 交叉 验证 方 
法 获得 成 分 个 数 ，DFM 方法 根据 式 (8) 分 别提 取 原 函数 、 
一 阶 和 二 阶 导 函数 特征 。 所 有 方法 均 对 原始 数据 进行 函数 化 
表达 和 平滑 处 理 ， 在 测试 数据 集 上 得 到 的 分 类 精度 如 表 3 所 
人 不。 


表 3 不 同 特征 提取 方法 下 的 分 类 精度 比较 
Table 3 Classification accuracy comparison of different feature 


extraction methods 


数据 集 DFM PCA PLS 
GunPoint 0.807 0.740 0.740 
Beetlefly 0.750 0.650 0.800 
Ham 0.800 0.667 0.695 
Herring 0.578 0.625 0.594 
Earthquakes 0.795 0.795 0.820 
WormsTwoClass 0.558 0.536 0.586 
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结合 表 3 中 LDA 分 类 结果 ， 并 与 表 2 所 得 结果 进行 比 
较 可 得 : 在 总 共 18 个 分 析 结 果 中 , 只 有 三 种 情形 比 本 文 方法 
分 类 精度 高 ， 分 别 是 Ham 数据 集 上 的 DFM 方法 、Herring 
数据 集 上 的 PCA 方法 和 Earthquakes 数据 集 上 的 PLS 方法 。 
此 可 见 , 本 文 所 提 的 SFE 方法 整体 上 优 于 其 他 三 种 特征 提 
取 方 法 。 另 外 ， 由 于 PLS 方法 考虑 了 样本 数据 和 类 变量 的 相 
关 性 , 提取 的 特征 质量 更 高 ， 分 类 效果 比 PCA 更 好 ,但 PLS 
方法 和 DFM 方法 各 有 优 劣 。 


3 ”结束 语 


分 类 问题 是 函数 型 数据 分 析 领 域 中 的 重要 研究 方向 ， 能 
否 有 效 提取 函数 型 数据 的 低 维特 征 非 常 关键 。 本 文 所 提 算 法 
对 函数 及 导 函 数 曲 线 分 段 处 理 ， 基 于 统计 深度 方法 ， 把 无 穷 
维 函 数 变 换 为 低 维特 征 向 量 ， 再 采用 标准 分 类 算法 处 理 ， 从 
j 避 免 了 全 局 特征 和 显著 点 特征 表达 的 不 足 ， 在 多 个 数据 集 
上 的 实验 结果 验证 了 文中 所 提 SFE 算法 的 有 效 性 。 进一步 考 
虑 如 下 三 个 问题 : a) 如 何 处 理 非 时 间 对 齐 的 样本 曲线 , 如 界 标 
法 校准 等 ， 将 极 大 改善 后 续 函 数 化 表达 及 分 析 ;b) 当 前 算法 中 
数 分 段 区 间 是 等 距 的 ， 能 否 提出 启发 式 策略 ， 自 适应 地 确 
非 等 距 子 区 间 ， 以 便 提 取 更 具 辨别 的 类 特征 ; c) 函 数 特有 

可 以 考虑 更 多 变换 形式 ， 文 中 使 用 的 统计 深度 值 即 向 心 怕 
量 可 拓展 成 多 种 定义 ， 以 上 三 点 是 下 一 步 的 工作 重点 。 
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